AI012

สำรวจอย่างละเอียดเกี่ยวกับโมเดลภาษาขนาดใหญ่

กรณีศึกษาโมเดลภาษาขนาดใหญ่ที่นิยมและกลยุทธ์การใช้งาน

บทเรียน

บทที่ 2

ผู้สอน

ผู้ช่วยสอนอัจฉริยะ

วันที่

2026-03-10

เป้าหมายการเรียนรู้

วิเคราะห์ความแตกต่างทางโครงสร้างระหว่างสถาปัตยกรรมแบบแค่เข้ารหัส (BERT) แบบแค่ถอดรหัส (GPT) และแบบเข้ารหัส-ถอดรหัส (T5)
อธิบายกระบวนการฝึกอบรมสามขั้นตอน: การฝึกเบื้องต้น (โมเดลพื้นฐาน), การปรับแต่งคำสั่ง (SFT), และการประสานงาน (RLHF/PPO)
เปรียบเทียบประสิทธิภาพ กฎการขยายตัว และนวัตกรรมด้านสถาปัตยกรรมของโมเดลภาษาขนาดใหญ่ที่นิยม เช่น GPT, Llama, Qwen และ DeepSeek